DPO con compuerta de gradiente: estabilizando la optimización de preferencias en modelos de lenguaje
<meta name=description content=Estabiliza la optimización de preferencias mediante compuerta de gradiente. Mejora la convergencia y reduce inestabilidad en modelos de IA.>